{% include 'includes/_navbar.html' %}
PROCESO ALGORÍTMICO DE RECUPERACIÓN EFICIENTE DE
TEXTO HISTÓRICO EN GESTIÓN DOCUMENTAL DIGITAL
JESÚS MARTÍN SILVA FERNÁNDEZ
Maestro en Ciencias de la Computación
Para Optar el Título de Doctor en Ciencias de la Computación
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Sistemas inteligentes y tratamiento de imágenes
Línea de Investigación
Reconocimiento automático de patrones,
análisis de imágenes y generación de
características
Gestión documental, procesamiento electrónico
automático
Proceso de digitalización
Generación de texto
Identificación de palabras clave
Líneas SubLíneas
OCDE
1.00.00 Ciencias Naturales
1.02.00 Informática y Ciencias de la Información
1.02.01 Ciencias de la Computación
https://concytec-pe.github.io/Peru-CRIS/vocabularios/ocde_ford.html
Inteligencia artificial: reconocimiento
de patrones y el procesamiento del
lenguaje natural.
Tecnologías de la información
(TIC): Aplicación de la informática y la
tecnología para almacenamiento y
gestión de información.
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Preproceso: Algoritmos GVF+snake+Balloom+Chan-
Vese, corregir caracteres deteriorados
Postproceso: Algoritmo Peter Norvig + Corpus CESS-
Esp, corregir palabras
Palabras Clave: Algoritmo: TF-ITF + DF-IDF,
Agregar clave autor y documentos
Plataforma gestion documental: ISO 23081 + ISO
15489 + ISO 30300 docum digital
Se implementa una infraestructura para que utilizando
una base de datos documental se realizan pruebas de
eficiencia con indicadores de tiempo de respuesta y
calidad de resultados
Remen
Se presenta una propuesta para el problema de reconocimiento de texto de documentación textual
histórica deteriorada, que representa información útil para el nivel ejecutivo y como evidencia de la
actividad continua y resultados temporales institucionales.
Es un requerimiento informático cuya complejidad se resuelve con algoritmos inteligentes que se
exponen con un enfoque formal, y se evalúan los resultados de los mismos con fines de aceptabilidad de
resultados: Escaneo
óptico Segmentación
de ubicación
Preprocesamiento
preparación
Extracción de
características,
Tesseract Post procesamiento
de reconocimiento
Palabras clave,
evaluación e
identificación
Tesis
Documento
digital
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Reconocimiento de Caracteres OCR/ICR
PyTesseract, se basa en la biblioteca Tesseract, desarrollada por Google:
Utiliza técnicas de Machine Learning para procesar imágenes y extraer el
texto contenido en ellas.
Realiza preprocesamiento de la imagen para mejorar su legibilidad,
técnicas como mejora de contraste, eliminación de ruido y la corrección de
orientación de imagen.
Utiliza modelos entrenados con imágenes etiquetadas para reconocer y
clasificar diferentes caracteres de imagen.
Está basado en algoritmos de redes neuronales convolucionales (CNN).
Usa diccionarios y modelos de lenguaje para la coherencia y corrección del
texto extraído, contienen información sobre las palabras y las estructuras
gramaticales típicas del idioma en cuestión.
Corrigen errores tipográficos, de palabras incorrectas
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Preproceso: Algoritmo 1, gvf
Calculo de gradiente
Se calcula utilizando diferencias centrales de segundo orden en los puntos interiores y diferencias
unilaterales (hacia adelante o hacia atrás) de primer o segundo orden en los límites.
Las derivadas de imagen se utilizan para detectar los bordes de la imagen
Una matriz N-dimensional que contiene muestras de una función escalar:
ηi= 󰏇
󰇛󰇜[αƒ(xi) + β ƒ(xi+ hd) + 󰏇(xi- hs)]
El gradiente indica los valores máximo y
mínimo de la derivada direccional en un punto. Dirección de valores de gradiente
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Preproceso: Algoritmo 1, snake
El algoritmo de la serpiente (snake). utiliza los puntos de referencia minimizando una
función de energía (o funcional, ya que es la función de un campo vectorial)
󰇛   󰇜
La Ecant fuerza la continuidad de los puntos de referencia. Penaliza el movimiento que se
aleja de los puntos de referencia vecinos. La Ecurv impone suavidad. Penaliza el
movimiento hacia una curvatura grande. La Eimag obliga a los puntos a moverse hacia el
límite de la imagen
Algoritmo basado en GVF-Snake
para la detección eficaz de bordes de
concavidad
Difusión direccionalmente debilitada
para la segmentación de imágenes
mediante contornos activos
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Preproceso: Algoritmo 2, umbral Otsu
Umbralización
Si el valor del píxel es menor o igual al umbral, se
establece en 0; de lo contrario, se establece en un
valor máximo
El umbral adaptativo para un píxel se determina
basándose en una pequeña región a su alrededor, se
obtiene diferentes umbrales para diferentes regiones
de la misma imagen
Un umbral adecuado estaría en el punto medio de esos
dos valores, el método de Otsu determina un valor
umbral global óptimo a partir del histograma de la
imagen.
El algoritmo de Otsu intenta encontrar un valor
umbral (t) que minimice la varianza ponderada dentro
de la clase dada por la relación:
󰇛󰇜
Donde:

󰇛󰇜 y 
󰇛󰇜
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Cálculo de gradiente
Transformaciones morfológicas
Son operaciones sencillas basadas en la forma de la imagen. Se realizan
en imágenes binarias. Requieren dos entradas: la imagen original y
el elemento estructurante onúcleo , que determina la naturaleza de la
operación
Erosión
Un píxel de la imagen original (ya sea 1 o 0) se considerará 1 solo si
todos los píxeles bajo el núcleo son 1; de lo contrario, se erosiona (se
reduce a cero). Todos los píxeles cercanos al límite se descartan según el
tamaño del kernel
Dilatación
Opuesto a la erosión. Aquí, un elemento de píxel es '1' si al menos un
píxel debajo del núcleo es '1'. Por lo tanto, aumenta la región blanca en
la imagen o el tamaño del objeto en primer plano
Cierre
Dilatación seguida de erosión . Es útil para cerrar pequeños agujeros en
los objetos en primer plano o pequeños puntos negros en el objeto.
Preproceso: Algoritmo 3, gvf + transformaciones
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Preproceso: Algoritmo 4, Chan-Vese segmentation
Se basa en el concepto de contornos activos o curvas de nivel.
Segmenta de manera iterativa objetos con límites no claramente
definidos, minimizando una función de energía que considera
factores como las diferencias de intensidad dentro y fuera de la
región segmentada, y la longitud del límite.
El método de Chan-Vese se basa en el modelo de Mumford-Shah,
el que aproxima la imagen ƒmediante una función µ suave por
partes como solución del problema de minimización:
Arg minu,CµLength(C) + λ󰇛 󰇜 󰇛󰇜
Donde C es una curva de conjunto de aristas donde se permite que
µ sea discontinua.
Ciclo iterativo de
reconocimiento de límites
LSF = CV(LSF, img, mu, nu, epison, step, False)
Derivada regularizada
Drc = (epison / math.pi) / (epison * epison + LSF * LSF)
Función para suavizar Hea = 0.5 * (1 + (2 / math.pi) * mat_math(LSF / epison,
"atan",img))
Cálculo de gradiente Iy, Ix = np.gradient(LSF)
Término de penalización
Lap = cv2.Laplacian(LSF,
-1)
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
POSTPROCESO: Corrector Ortográfico, Peter Norvig
Corrige palabras con errores tipográficos y, al mismo tiempo, no altera la ortografía correcta. A una
palabra se aplica todas las ediciones posibles, como eliminar, insertar, transponer, reemplazar y
dividir.
Cada palabra se agrega a una lista de candidatas, se repite para cada palabra una segunda vez para
obtener candidatos con mayor distancia de edición.
Se estima la probabilidad de algún fragmento como producto de todos los n-gramas de tamaño n:
P(w1,…,wn) = 
P(wiw1,…,wi-1)
Para mejorar la precisión:
Ps(wii-2, wi-1) = P(wii-2,wi-1)* P(wii-1)*P(wi)
Descarga de Corpus nltk.download('cess_esp')
Construcción de diccionario
frecuencia de palabras
WORD_COUNTS =
Counter(palabras(texto_corpus))
Corrección de palabras t_corregido = '
'.join(corregir(palabra) for palabra
in palabras_t)
Ejemplo:
Entrada: texto_1 = ['La siscripcion es de',
'un peso mesual, y un',
'real el llúmero suelto']
Salida: texto_2 = ['La suscripcion es de',
'un peso mensual, y un',
'real del Número suelto']
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
PALABRAS CLAVE: Frecuencia de término-
Frecuencia de documento inversa (TF-IDF)
Medida estadística de procesamiento del lenguaje natural y la recuperación de información para
evaluar la importancia de una palabra en un documento en relación con una colección de
documentos (corpus).
Frecuencia de Términos (FT): Mide la frecuencia con la que aparece una palabra en un documento
TFij = 

Donde:
ni,j : Número de ocurrencias del término ticonsiderado en el documento dj.
knk,j: Suma del número de ocurrencias de todos los términos en el documento.
La frecuencia inversa de documentos es una medida de la importancia general del término, se define:
IDFi = 
󰇝󰇞
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Para el reconocimiento de caracteres las variables corresponden a técnicas de PCA (Análisis de
componentes principales) y RFE (Eliminación Recursiva de Características) que permiten crear
modelos eficientes.
El proceso de ICR se inicia con la digitalización de imágenes de escritura deteriorada que tienen los
caracteres. Este conjunto está compuesto por documentos y campos.
Las entradas son píxeles de la imagen que representa el caracter, la imagen está en escala de grises
por lo que cada pixel está entre 0 y 255
784 valores en los píxeles (resultado de los 28x28 píxeles), toman valores enteros de 0 hasta 255,
siendo el valor 255 la intensidad más oscura (negro) y el 0 la intensidad más clara (blanco).
En la evaluación se mide el grado de precisión de cada modelo, se utiliza la exactitud de cada
método
Base Metodogica-Capítulo 3
Fase 1: Reducción
de imagen
Fase 2:
Tratamiento
de
imagen
Fase 3: Selección
de Variables
Fase 4:
Construcción de
modelo
Fase 5:
Resultados
No hacer nada
Ancho pixel
No extraer
características
KNN
0.9495
Imagen 14x14
Quitar filas blanco
PCA
Random Forest
0.9315
Imagen 28x28
Binarizar
RFE
Neuronal
Network
0.9625
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
El sistema de gestión documental orientado al registro de documentación física, para un mejor
control y para un registro histórico de los documentos:
Proceso de Digitalizacn
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Resultados esperados
La expectativa del proyecto es el reconocimiento de un texto deteriorado para su intepretación mas
aceptable:
Se utliza base de datos documental histórica de la Asociación de Latinoamericana de Archivos
(ALA)
Se definen tres grupos de evaluación:
Correctamente reconocidas
Con pocos fallos en el reconocimiento
Con número de errores que generan no clasificación
Indices/tasas de rendimiento: reconocimiento, de rechazo y error
Análisis de Resultados
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Reconocimiento de Imagen y claves
En la implementación de la Plataforma para resultados y
pruebas se observa:
Imagen original Prep 1: gvf+Transf Postp: Corrector Ortograf
La evaluación cuantitativa utiliza la estrategia de palabras
correctas y cantidad de las mismas y se expone en diagrama
de barras con etiquetas de algoritmo correspondiente.
Análisis de Resultados
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Alisis de Resultados: Tasa de error CER,
WER y MER
Mide la tasa de caracteres erróneos
producidos por un sistema de OCR
en comparación con la realidad. Se
calcula dividiendo el número total
de caracteres incorrectos entre el
número total de caracteres del texto
de referencia. El CER se expresa
como %.
La tasa de error de palabras (WER),
la tasa de error de caracteres
(CER) y la tasa de error de
coincidencia (MER) son métricas
para evaluar sistemas de
procesamiento del lenguaje natural,
cuantifican la similitud entre los
textos de referencia y los
candidatos, siendo cero una
puntuación perfecta
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
Pre-proceso, mejora gráfica de caracteres detariorados, con este algoritmo se logra una
mejora significative, utilizando la Plataforma de pruebas se puede optimizar con
parámetros de configuración del algoritmo e imagen de entrada.
Post-proceso, análisis semántico, con este algoritmo y con un diccionario del lenguaje
español se identifica y completa la palabra, es necesario mejorar la identificación de
nombres propios.
El indexamiento se realiza con metadatos según tipo de documento, se incluye fechas,
palabras propuestas por el autor y originario y destinatario, sin embargo, se podría
mejorar con palabras de origen semántico.
La plataforma de gestión documental incluye captura (digitalización) proceso de calidad,
archivamiento, indexación y búsqueda, es necesario integrar con documentación actual
que originalmente es digital.
Propuesta de Mejora
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
El uso de los algoritmos de mejoramiento de información gráfica de para caracteres
deteriorados, permiten resultados eficientes que se mejora con parámetros de
configuración.
La corrección de palabras utilizando corpus/diccionarios es eficiente en la medida de
realizar evaluación de contexto semántico.
Los métodos para corregir los caracteres deteriorados afectan la tarea de clasificación
luego de detección de palabra.
La determinación de palabras clave de búsqueda resultan útiles en la medida que sean
representativas del contenido y por tanto de los algoritmos precedents.
El proceso de gestión documental es necesario prinicpalmente para reducer uso de
recurso temporal, financiero, espacio y Calidad de atención.
Conclusiones